检索结果

Select

1. 基于池化和特征组合增强BERT的答案选择模型

胡婕, 陈晓茜, 张龑

《计算机应用》唯一官方网站 2023, 43 (2): 365-373. DOI: 10.11772/j.issn.1001-9081.2021122167

摘要（337）

HTML （16）

PDF （1248KB）（158）

当前主流模型无法充分地表示问答对的语义，未充分考虑问答对主题信息间的联系并且激活函数存在软饱和的问题，而这些会影响模型的整体性能。针对这些问题，提出了一种基于池化和特征组合增强BERT的答案选择模型。首先，在预训练模型BERT的基础上增加对抗样本并引入池化操作来表示问答对的语义；其次，引入主题信息特征组合来加强问答对主题信息间的联系；最后，改进隐藏层的激活函数，并用拼接向量通过隐藏层和分类器完成答案选择任务。在SemEval-2016CQA和SemEval-2017CQA数据集上进行的验证结果表明，所提模型与tBERT模型相比，准确率分别提高了3.1个百分点和2.2个百分点；F1值分别提高了2.0个百分点和3.1个百分点。可见，所提模型在答案选择任务上的综合效果得到了有效提升，准确率和F1值均优于对比模型。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于知识库实体增强BERT模型的中文命名实体识别

胡婕, 胡燕, 刘梦赤, 张龑

《计算机应用》唯一官方网站 2022, 42 (9): 2680-2685. DOI: 10.11772/j.issn.1001-9081.2021071209

摘要（519）

HTML （23）

PDF （1391KB）（476）

针对预训练模型BERT存在词汇信息缺乏的问题，在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先，从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典；然后，将词典中的实体嵌入到BERT中进行预训练，将训练得到的词向量输入到双向长短期记忆网络（BiLSTM）中提取特征；最后，经过条件随机场（CRF）修正后输出结果。在CLUENER 2020 和 MSRA数据集上进行模型验证，将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明，该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见，所提模型对命名实体识别的综合效果得到有效提升，F1值均优于对比模型。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于复述的中文自然语言接口

张俊驰, 胡婕, 刘梦赤

计算机应用 2016, 36 (5): 1290-1295. DOI: 10.11772/j.issn.1001-9081.2016.05.1290

摘要（521）

PDF （1117KB）（419）

针对传统以句法分析为主的数据库自然语言接口系统识别用户语义准确率不高,且需要大量人工标注训练语料的问题,提出了一种基于复述的中文自然语言接口(NLIDB)实现方法。首先提取用户语句中表征数据库实体词,建立候选树集及对应的形式化自然语言表达;其次由网络问答语料训练得到的复述分类器筛选出语义最相近的表达;最后将相应的候选树转换为结构化查询语句(SQL)。实验表明该方法在美国地理问答语料(GeoQueries880)、餐饮问答语料(RestQueries250)上的F1值分别达到83.4%、90%,均优于句法分析方法。通过对比实验结果发现基于复述方法的数据库自然语言接口系统能更好地处理用户与数据库的语义鸿沟问题。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于中点密度函数的模糊聚类算法

周跃跃, 胡婕, 苏涛

计算机应用 2016, 36 (1): 150-153. DOI: 10.11772/j.issn.1001-9081.2016.01.0150

摘要（460）

PDF （755KB）（357）

针对传统模糊C-均值(FCM)聚类算法初始聚类中心不确定,且需要人为预先设定聚类类别数,从而导致结果不准确的问题,提出了一种基于中点密度函数的模糊聚类算法。首先,结合逐步回归思想作为初始聚类中心选取的方法,避免收敛结果陷入局部循环;其次,确定可能的聚类类别数目;最后,对结果进行重叠度和分离度的模糊聚类有效性指标判定,确定最佳的聚类类别数。实验证明该算法与原改进C-均值聚类算法相比,减少了迭代次数,平均准确率提高了12%。实验结果表明该算法能够减少聚类的处理时间,并在平均准确率和聚类性能指标上优于对比算法。

参考文献 | 相关文章 | 多维度评价